实测揭秘!500 道人类未解难题考大模型,最佳仅 15% 通过验证
ChatGPT、Claude、Gemini……这些名字如雷贯耳的语言模型,几乎每天都在刷新我们对AI能力的认知。它们能写诗、解题、生成代码、做翻译,甚至在不少考试中“吊打”人类。
ChatGPT、Claude、Gemini……这些名字如雷贯耳的语言模型,几乎每天都在刷新我们对AI能力的认知。它们能写诗、解题、生成代码、做翻译,甚至在不少考试中“吊打”人类。
OpenAI的“通用验证器”或将直接影响GPT-5模型的市场竞争力,8月4日据科技媒体The Information援引知情人士消息报道,这项技术已被应用于GPT-5的开发过程中。
这项由清华大学刘方富、王瀚阳、蔡一墨等研究人员与腾讯联合完成的研究发表于2025年4月1日的arXiv预印本服务器,论文编号为arXiv:2503.18942v2,有兴趣深入了解的读者可以通过访问完整项目页面。
这项研究的突破性在于,它首次将大语言模型中已经验证有效的"测试时扩展"技术成功应用到了视频生成领域。研究结果显示,在不需要重新训练模型或增加模型参数的情况下,仅仅通过在生成时投入更多计算资源,就能让视频生成模型在各个评估维度上都获得显著提升。更令人惊喜的是,这